Modern speech recognition systems exhibits rapid performance degradation under domain shift. This issue is especially prevalent in data-scarce settings, such as low-resource languages, where diversity of training data is limited. In this work we propose M2DS2, a simple and sample-efficient finetuning strategy for large pretrained speech models, based on mixed source and target domain self-supervision. We find that including source domain self-supervision stabilizes training and avoids mode collapse of the latent representations. For evaluation, we collect HParl, a $120$ hour speech corpus for Greek, consisting of plenary sessions in the Greek Parliament. We merge HParl with two popular Greek corpora to create GREC-MD, a test-bed for multi-domain evaluation of Greek ASR systems. In our experiments we find that, while other Unsupervised Domain Adaptation baselines fail in this resource-constrained environment, M2DS2 yields significant improvements for cross-domain adaptation, even when a only a few hours of in-domain audio are available. When we relax the problem in a weakly supervised setting, we find that independent adaptation for audio using M2DS2 and language using simple LM augmentation techniques is particularly effective, yielding word error rates comparable to the fully supervised baselines.
translated by 谷歌翻译
我们研究了全球优化因果关系变量的因果关系变量的问题,在该目标变量中可以进行干预措施。这个问题在许多科学领域都引起,包括生物学,运营研究和医疗保健。我们提出了因果熵优化(CEO),该框架概括了因果贝叶斯优化(CBO),以说明所有不确定性来源,包括由因果图结构引起的。首席执行官在因果效应的替代模型中以及用于通过信息理论采集函数选择干预措施的机制中纳入了因果结构的不确定性。所得算法自动交易结构学习和因果效应优化,同时自然考虑观察噪声。对于各种合成和现实世界的结构性因果模型,与CBO相比,CEO可以更快地与全局最佳达到融合,同时还可以学习图形。此外,我们的结构学习和因果优化的联合方法在顺序的结构学习优先方法上改善了。
translated by 谷歌翻译
在不同水平的抽象水平上使用因果模型是科学的重要特征。现有工作已经考虑了因果模型之间正式表达抽象关系的问题。在本文中,我们关注学习抽象的问题。我们首先根据优化一致性度量的优化来正式定义学习问题。然后,我们指出了这种方法的局限性,建议通过对信息丢失的术语进行术语来扩展目标函数。我们建议对信息丢失的具体度量,并说明了其对学习新抽象的贡献。
translated by 谷歌翻译
无监督的域适应性(UDA)旨在减少训练和测试数据之间的域间隙,并在大多数情况下以离线方式进行。但是,在部署过程中可能会连续且不可预测地发生域的变化(例如,天气变化突然变化)。在这种情况下,深度神经网络见证了准确性的急剧下降,离线适应可能不足以对比。在本文中,我们解决了在线域适应(ONDA)进行语义细分。我们设计了一条可逐步或突然转移的域转移的管道,在多雨和有雾的情况下,我们对其进行了评估。我们的实验表明,我们的框架可以有效地适应部署期间的新域,而不受灾难性遗忘以前的域的影响。
translated by 谷歌翻译
连接设备的快速增长导致了新型网络安全威胁的扩散,称为零日攻击。传统的基于行为的ID依靠DNN来检测这些攻击。用于训练DNN的数据集的质量在检测性能中起着至关重要的作用,而代表性不足的样品导致性能不佳。在本文中,我们开发和评估DBN在连接设备网络中检测网络攻击方面的性能。CICIDS2017数据集用于训练和评估我们提出的DBN方法的性能。应用和评估了几种类平衡技术。最后,我们将方法与常规的MLP模型和现有的最新方法进行比较。我们提出的DBN方法显示出竞争性和有希望的结果,并且在培训数据集中攻击不足的攻击中的检测方面有显着改善。
translated by 谷歌翻译
在时间序列上进行预训练会带来独特的挑战,这是由于预训练和目标域之间的潜在不匹配,例如时间动力学的变化,快速变化的趋势以及远距离循环效应和短期循环效应,这会导致下游差的差表现。尽管域适应方法可以减轻这些偏移,但大多数方法都需要直接从目标域中进行示例,从而使其次优于预训练。为了应对这一挑战,方法需要适应具有不同时间动力学的目标域,并且能够在预训练期间看到任何目标示例。相对于其他方式,在时间序列中,我们期望同一示例的基于时间和频率的表示形式靠近时间频率。为此,我们认为时间频一致性(TF-C)(将特定示例的基于时间的社区嵌入到其基于频率的邻居和后背)是可取的。由TF-C激发,我们定义了一个可分解的预训练模型,其中自我监督信号由时间和频率分量之间的距离提供,每个信号通过对比度估计单独训练。我们在八个数据集上评估了新方法,包括电诊断测试,人类活动识别,机械故障检测和身体状态监测。针对八种最先进方法的实验表明,在一对一的设置中,TF-C平均比基准平均超过15.4%(F1分数)(例如,在EMG数据上对EEG预测的模型进行微调)和在具有挑战性的一对一环境中,最多可达8.4%(F1得分),这反映了现实世界应用中出现的场景广度。源代码和数据集可在https://anonymon.4open.science/r/tfc-pretraining-6b07上找到。
translated by 谷歌翻译
这项工作认为有监督的对比度学习语义细分。我们应用对比度学习来增强语义分割网络提取的多尺度特征的判别能力。我们的关键方法论洞察力是利用从模型编码器本身的多个阶段发出的特征空间中的样本,既不需要数据增强,也不需要在线存储库来获取一组不同的样本。为了允许这样的扩展,我们引入了一个高效且有效的抽样过程,可以在多个尺度上对编码器的特征应用对比度损失。此外,通过首先将编码器的多尺度表示形式映射到一个共同的特征空间,我们通过引入跨尺度对比度学习将高分辨率局部特征与低分辨率全球特征联系起来,从而实例化了一种新颖的监督局部全球约束形式。合并,我们的多尺度和跨尺度对比度损失可提高各种模型(DeepLabv3,hrnet,ocrnet,upernet)的性能,以及CNN和Transformer骨架,当对4个不同的数据集进行评估(CityScapes,PascalContext,ADE20K)时,对4个不同的数据集进行了评估。外科(CADIS)域。我们的代码可在https://github.com/rvimla​​b/ms_cs_contrseg上找到。来自天然(CityScapes,PascalContext,ADE20K)的数据集,也是外科手术(CADIS)域。
translated by 谷歌翻译
Simulator-based models are models for which the likelihood is intractable but simulation of synthetic data is possible. They are often used to describe complex real-world phenomena, and as such can often be misspecified in practice. Unfortunately, existing Bayesian approaches for simulators are known to perform poorly in those cases. In this paper, we propose a novel algorithm based on the posterior bootstrap and maximum mean discrepancy estimators. This leads to a highly-parallelisable Bayesian inference algorithm with strong robustness properties. This is demonstrated through an in-depth theoretical study which includes generalisation bounds and proofs of frequentist consistency and robustness of our posterior. The approach is then assessed on a range of examples including a g-and-k distribution and a toggle-switch model.
translated by 谷歌翻译
我们解决了联合学习(FL-HPO)的超参数优化(HPO)的相对未开发的问题。我们引入联邦损失表面聚合(Flora),该框架的第一个FL-HPO解决方案框架可以解决除了在流体文献中通常寻址的随机梯度下降/神经网络之外的表格数据和梯度提升训练算法的用例。该框架使单次FL-HPO能够首先识别**单次**培训中使用的良好的超参数集。因此,与没有HPO的FL训练相比,它使FL-HPO解决方案具有最小的额外通信开销。我们对七个OpenML数据集的梯度提升决策树Flora的实证评估表明,对所考虑的基线,以及越来越多的涉及FL-HPO培训的各方的鲁棒性,可以显着的模型准确性。
translated by 谷歌翻译
我们介绍了一种可扩展的方法来实现高斯工艺推断,它将时空滤波与自然梯度变化推断相结合,导致用于多变量数据的非共轭GP方法,其相对于时间线性缩放。我们的自然梯度方法可以应用并行滤波和平滑,进一步降低时间跨度复杂性在时间步长的对数。我们得出了稀疏近似,该稀疏近似值在减少的空间诱导点上构造一个状态空间模型,并且显示用于可分离的马尔可夫内核,完整和稀疏的情况完全恢复标准变分GP,同时表现出有利的计算特性。为了进一步改善空间缩放,我们提出了一种平均场景假设空间位置之间的独立性,当与稀疏性和平行化连接时,这导致了大规模的时空问题的有效和准确的方法。
translated by 谷歌翻译